روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه

نویسندگان

چکیده مقاله:

Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical information of clean speech. In this article a new approach of missing features method based on compensation are proposed. A Bidirectional Neural Network (BNN) was developed and implemented in order to modify unreliable components in input feature vectors and improve the overall recognition accuracy. Distorted components in feature vectors were estimated in accordance with the latent knowledge in the hidden layer of the neural network. This knowledge is obtained by training with clean and noisy speech, simultaneously and is mostly induced by reliable and less influenced components by the irrelevant variations in speech signal. In this approach, there is no need to identify missing components that is a challenging issue in the field of robust speech recognition based on missing feature method because reconstruction is done on all components (whether reliable or unreliable), in order to become more similar to the clean speech component. This point is a very significant advantage that has been achieved in this article. Comparing the results of these two methods shows that using Missing feature methods, 4.2% improvement were obtained in the accuracy of speech recognition for noisy signal by SNR=0dB, whereas improvement value increased to 8.5%, using bidirectional neural network for the same signal to noise ratio.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

بازشناسی مقاوم گفتار با روش دادگان مفقود با استفاده از شبکه عصبی دوسویه

عملکرد سیستم های بازشناسی گفتار (asr) زمانی که گفتار توسط نویز تخریب شده باشد، به شدت کاهش می یابد. روش های ویژگی های مفقود قصد دارند که این کاهش بازشناسی را با حذف مولفه هایی از نمایش زمانی- فرکانسی گفتار (اسپکتروگرام) که بیانگر نسبت سیگنال به نویز (snr) پایین باشند، کاهش دهند. این روش ها اثر خود را در نتایج صحت بازشناسی نشان می دهند که در مقابل اثر نویز جمعی، مقاوم بودن بالای خود را بروز می د...

15 صفحه اول

بازشناسی مقاوم گفتار با استفاده از ویژگی‌ الگوهای زمانی به دست آمده از ساختار شبکه عصبی بهینه شده MTMLP

ویژگی‌ الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری‌ LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژ...

متن کامل

بازشناسی گفتار نویزی با اصلاح روش خوشه بندی در دادگان مفقود

بر خلاف سیستم شنوایی انسان ها، سیستم های خودکار بازشناسی گفتار نسبت به نویز زمینه بسیار حساس هستند. این اثر ناشی از تفاوت مابین آمارگان مدل های گفتار تعلیمی است با آنچه که در شرایط واقعی از آنها استفاده می شود. جبران نکردن چنین عدم انطباقی، دقت سیستم های بازشناسی را به شدت کاهش می دهد. در این گزارش، جهت جبران عدم انطباق بین دادگان تعلیم و تست از یکی از روش های ویژگی مفقود تحت عنوان بازسازی مب...

15 صفحه اول

شبکه عصبی پیچشی با پنجره‌های قابل تطبیق برای بازشناسی گفتار

Although, speech recognition systems are widely used and their accuracies are continuously increased, there is a considerable performance gap between their accuracies and human recognition ability. This is partially due to high speaker variations in speech signal. Deep neural networks are among the best tools for acoustic modeling. Recently, using hybrid deep neural network and hidden Markov mo...

متن کامل

بازشناسی مقاوم چهره با استفاده از شبکه عصبی

ویژگیهای استخراج شده از تصاویر چهره انسان، تحت تأثیر تنوعات مختلف نظیر تغییرات در نورپردازی، چرخش سر، داشتن حالتهای احساسی و سایر موارد تغییر می کند. به دلیل تأثیر این تنوعات غیرخطی در الگوهای ورودی، کارآیی سامانه های خودکار بازشناسی چهره در شرایط کنترل نشده به طور چشم گیری کاهش می یابد. برای افزایش کارآیی سامانه های بازشناسی چهره نسبت به این تنوعات، باید ویژگیهای مشابه برای تصاویر هر فرد استخر...

15 صفحه اول

ارائه روشی جدید برای بهبود کیفیت سرویس در مدیریت شهرداری الکترونیک با استفاده از شبکه های مبتنی بر نرم‌افزار

گستردگی و پیچیدگی مسائل شهری و رشد و توسعه روزافزون شهرها، مدیریت امور شهر را به وظیفه ای دشوار تبدیل نموده است. استفاده از فناوری اطلاعات و ارتباطات در اداره شهرها گامی موثر در جهت توسعه پایدار مدیریت شهری محسوب می شود. شهرداری الکترونیکی، سازمانی است که از فناوری اطلاعات و ارتباطات برای مدیریت و کنترل، بهتر و سریع تر زیرمجموعه های خود استفاده می کند. به این منظور، یکی از مهمترین زیرساخت های ل...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 9  شماره 1

صفحات  35- 48

تاریخ انتشار 2012-09

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

کلمات کلیدی برای این مقاله ارائه نشده است

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023